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摘 要 : [目的 /意义 ] 研究 在 大 数据 环境 下 多 源 知 识 融合 的 关键 技术 ,结合 不 同 领域 多 源 知 识 对 象 的 特点 构建 出 一 整套 技 
术 体 系 ,为 知识 融合 的 落地 实现 提供 技术 支撑 和 解决 方案 。[ 方 法 /过 程 ] 运 用 定性 分 析 法 对 现 有 的 相关 研究 进行 
分 析 , 再 对 相关 内 容 进行 归纳 和 演绎 ,利用 文献 分 析 法 ,梳理 知识 融合 要 解决 的 问题 ,归纳 总 结 知识 融合 的 任务 类 
型 以 及 实现 各 种 任务 所 需 的 工作 流程 及 其 涉及 的 具体 技术 ,形成 知识 融合 技术 体系 。[ 结果 /结论 ] 综合 考虑 各 种 
技术 的 自身 特性 、 适 用 的 知识 对 象 、 应 用 的 抽象 层次 ,建立 具有 计算 层 、 功 能 层 和 任务 层 三 个 层次 的 技术 体系 架 
构 。 这 三 个 层次 相互 联系 、 相 互 影响 、 环 环 相 扣 , 向 上 可 以 抽象 ,可 以 与 知识 融合 的 具体 问题 (任务 ) 相 关联 ;向 下 
可 以 具 化 , 即 找到 解决 知识 融合 具体 问题 的 可 操作 、 可 计算 的 技术 方法 。 
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1 一 引言 

入 科学 技术 的 迅猛 发 展 大 大 增加 了 人 类 的 知识 总 
最 大量 的 知识 分 布 在 世界 上 不 同 的 数据 源 中 ,并 以 不 
局 阐 形 式 呈 现 。 在 信息 化 社会 ,知识 已 经 成 为 引领 经 
济 瑞 长 的 战略 要 素 , 知 识 积累 能 够 驱动 经 济 的 增长 ,而 
杞 类 技术 的 领先 程度 和 创新 能 力 直接 影响 到 知识 优势 
的 朵 成 "。 因 此 ,如 何在 技术 层面 上 实现 知识 对 象 的 
融合 已 经 成 为 大 数据 环境 下 知识 融合 的 基础 和 需要 优 
逢 解决 的 问题 ,这 涉及 从 资源 的 收集 存储 .计算 分 析 到 
访问 应 用 等 多 个 层面 的 技术 和 方法 。 

本 文 所 说 的 大 数据 环境 下 的 知识 融合 技术 ,包括 
两 层 含义 ， 

(1) 它 是 为 解决 知识 融合 问题 而 形成 的 技术 。 具 
体 地 说 , 它 是 指 解 决 各 类 知识 融合 问题 的 技术 簇 ,并 不 
是 一 类 单一 技术 ,而 是 具有 递归 结构 的 ,模块 化 的 技术 
组 合 ,通过 对 各 类 基本 技术 组 件 或 技术 单元 的 组 配 ,能 
够 最 终 实现 面向 特定 任务 的 ,特定 功能 的 ,多 尺度 的 知 
识 融 合 。 大 数据 时 代 , 知 识 融 合 需要 的 技术 的 特征 与 
应 用 流程 有 其 自身 的 规律 ,反映 了 知识 融合 这 一 特殊 
现象 的 内 在 要 求 。 同 时 , 随 着 对 知识 融合 研究 的 不 断 
深入 以 及 对 知识 融合 要 求 的 不 断 提高 ,各 类 信息 技术 


也 会 针对 知识 融合 自身 的 特征 而 有 所 改进 和 提升 ,其 
至 需要 专门 针对 知识 融合 研发 出 特定 的 实现 技术 。 这 
里 的 知识 融合 技术 包括 了 可 以 应 用 (直接 应 用 和 适应 
性 改造 后 应 用 ) 于 知识 融合 过 程 实现 的 信息 技术 以 及 
专门 为 知识 融合 而 研发 出 的 实现 技术 。 

(2) 它 本 身 具 有 大 数据 技术 的 特点 。 大 数据 环境 
下 ,知识 融合 面 对 的 数据 体 量 庞大 、 密 度 低 、 实 时 性 强 、 
结构 多 元 .来源 多 样 ,传统 的 知识 融合 技术 与 方法 难以 
处 理 ,需要 依托 于 新 型 计算 架构 。 针 对 数据 体 量 庞大 ， 
大 数据 环境 下 的 知识 融合 技术 要 支持 对 超大 数据 集 的 
拆 分 ,将 它们 分 散 到 多 台 机 器 上 ,利用 多 人 台 机 器 的 存储 
和 计算 能 力 共同 完成 任务 ;针对 数据 密度 低 、 实 时 性 
强 , 大 数据 环境 下 的 知识 融合 技术 从 单纯 的 “数据 集 ” 
处 理 转向 了 具备 “数据 流 ” 处 理 的 能 力 ,也 即 支 持 对 大 
规模 流动 数据 ( 流 数 据 ) 在 不 断 变化 的 运动 过 程 中 的 
实时 处 理 ;针对 数据 结构 多 元 、 来 源 多 样 ,大 数据 环境 
下 的 知识 融合 技术 能 够 处 理 多 种 类 型 的 数据 ,包括 数 
值 , 文 本 、 图 形 图 像 音 视频 等 等 。 更 具体 地 说 ,目前 常 
说 的 大 数据 技术 ,基本 上 都 是 属于 Hadoop 生态 体系 中 
的 技术 ,因此 ,也 可 以 将 大 数据 环境 下 的 知识 融合 技术 
理解 为 Hadoop 生态 体系 中 可 以 解决 知识 融合 问题 的 
那些 技术 。 它 们 的 来 源 主要 有 两 个 ,一 个 是 对 传统 知 
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识 融 合 技术 进行 升级 改造 而 形成 的 符合 Hadoop 生态 
规范 的 知识 融合 技术 , 另 一 个 是 在 Hadoop 生态 体系 中 
生长 出 的 知识 融合 技术 。 

现 有 有 关 知 识 融合 技术 方法 的 研究 ,无 论 是 对 于 
传统 的 知识 融合 技术 方法 还 是 对 大 数据 环境 下 的 知识 
融合 技术 方法 的 研究 , 主要 是 为 知识 融合 活动 提供 了 
底层 的 技术 支撑 ,但 普遍 较为 零散 ,对 个 别 操作 层面 的 
针对 性 较 强 ,即便 是 有 涉及 知识 融合 技术 体系 的 研究 ， 
也 基本 上 是 对 关键 技术 的 简单 分 类 ,缺乏 对 知识 融合 
技术 体系 的 整体 研究 ,如 X. Yu 和 Q. Lin ^ 将 知识 融 
合 方法 分 为 4 种 :基于 本 体 、 基 于 规则 、 基 于 统计 学 习 
和 基于 上 下 文 语 境 的 知识 融合 方法 ;与 之 相似 , 邱 均 平 
和 余 厚 强 根据 实现 路 径 将 知识 融合 技术 分 为 四 大 
奖 :基于 语义 规则 ,基于 贝 叶 斯 网 络 、 基 于 D-S 理论 和 
AETHER A EUR A AR" 总结 得 出 了 基于 遗 
Ti .基于 融合 规则 .基于 改进 算法 和 基于 需求 驱动 
BER ARR rA ER 
辐 大 数据 环境 下 ,知识 融合 更 加 强调 多 种 来 源 的 知 
识 融合 .多 种 结构 和 表现 形式 的 知识 之 间 的 融合 。 即 
俩 末 考 虑 大 数据 生态 规范 方面 的 特征 ,知识 融合 技术 
g 岂 用 也 面临 着 新 的 要 求 , 需 要 综合 利用 多 种 现 有 的 
知 况 融合 技术 ,并 将 这 些 底层 技术 方法 与 具体 融合 实 
践 站 结合 。 根 据 知识 融合 需求 和 融合 任务 的 不 同 ,或 
者 三 某 种 底层 技术 方法 的 基础 上 进行 参数 调整 ,或 者 
煌 缀 种 底层 技术 方法 加 以 “组 合 "和 * 集 成 ”, 使 它们 相 
互 配 合 解决 融合 问题 ,甚至 在 知识 融合 实践 中 创造 出 
全 新 技术 方法 。 为 此 ,需要 我 们 对 大 数据 环境 下 知识 
融合 的 技术 体系 得 出 完整 的 认识 ,使 其 能 够 容纳 各 种 
知识 融合 技术 (包括 容纳 目前 未 知 的 知识 融合 技术 ) 
并 明确 各 种 技术 对 知识 融合 可 能 起 到 的 作用 ,以 适应 
大 数据 环境 下 知识 融合 的 新 特点 。 

本 文 拟 结合 不 同 领域 多 源 知识 对 象 的 特点 ,构建 
大 数据 时 代 知 识 融合 技术 体系 ,为 知识 融合 的 落地 实 
现 提供 技术 支撑 和 解决 方案 ,也 为 知识 融合 的 技术 理 
论 和 技术 应 用 提供 参考 。 为 清楚 和 简化 起 见 ,本 文 在 
下 文中 大 部 分 情况 下 省 略 了 知识 融合 技术 之 前 的 “大 
数据 环境 下 "。 

2 知识 融合 技术 体系 构建 

知识 融合 技术 发 端 于 专家 系统 ,成 长 于 互联 网 时 
代 , 成 熟 于 大 数据 时 代 。 大 数据 时 代数 据 与 知识 的 爆 
炸 性 增长 ,使 得 各 方 对 知识 融合 的 应 用 需求 也 愈 发 强 
烈 ,知识 融 合 技术 也 随 之 于 勃发 展 , 信 息 科 学 、 医 学 T 


程 等 多 个 领域 也 开始 重视 本 领域 中 知识 融合 技术 的 研 
究 。 由 于 知识 融合 本 身 是 一 个 应 用 性 很 强 的 研究 领 
域 ,以 往 知 识 融 合 技术 研究 往往 从 某 一 学 科 或 某 一 领 
域 的 角度 出 发 ,以 解决 本 学 科 或 本 领域 中 涉及 的 知识 
融合 的 具体 问题 为 着 眼 点 展开 研究 ,到 目前 为 止 尚 未 
形成 一 套 成 熟 的 、 统 一 的 知识 融合 技术 体系 。 这 里 , 首 
先 简单 介绍 本 文 构建 知识 融合 技术 体系 的 基本 思路 ， 
而 后 提出 知识 融合 技术 体系 框架 。 
2.1 知识 融合 技术 体系 及 其 构建 思路 

体系 泛 指 一 定 范围 内 或 同类 的 事物 按照 一 定 的 秩 
序 和 内 部 联系 组 合 而 成 的 整体 ,是 由 不 同 子 系统 组 成 
的 系统 。 技 术 体系 则 是 技术 整体 性 的 表现 形式 ,是 一 
种 宏观 的 ,社会 性 的 整体 技术 结构 ,一 般 是 由 各 种 技 
术 有 机 联系 而 形成 的 具有 特定 功能 的 统一 体 。 大 数据 
时 代 的 知识 融合 技术 体系 ,是 指 能 够 反映 大 数据 环境 
下 知识 融合 所 使 用 的 各 类 信息 技术 及 其 相互 关联 关系 
的 统一 整体 。 

如 前 所 述 ,知识 融合 技术 不 是 指 一 类 或 一 种 单 
的 技术 ,而 是 一 个 技术 簇 ,从 字面 上 理解 , 它 是 由 基于 
技术 内 在 关联 性 和 差异 性 而 形成 的 技术 集合 或 技术 体 
系 。 每 项 具体 的 技术 在 这 个 技术 集合 或 技术 体系 中 的 
地 位 和 作用 是 不 一 样 的 ,这 也 就 导致 了 从 不 同 角 度 对 
技术 这 一 术语 的 不 同 理解 ,至 少 有 以 下 几 种 :技术 是 工 
具 或 手段 ;技术 是 方法 或 者 是 关于 方法 的 知识 ;技术 是 
人 类 活动 (过 程 ) 或 人 类 行为 ;技术 是 技能 方法. 手 
段 . 工 具 和 知识 的 某 种 组 合 或 总 和 “ 。 由 此 可 见 , 当 人 
们 在 使 用 知识 融合 技术 这 一 术语 时 ,往往 有 着 不 同 的 
层次 , 既 可 能 指 的 是 完成 某 项 知识 融合 任务 的 路 径 , 即 
根据 知识 融合 任务 的 要 求 ,将 已 知 的 手段 .方法 或 工具 
组 合 起 来 ,甚至 根据 要 解决 的 问题 发 明 创 造 新 的 手段 、 
方法 或 工具 ,形成 解决 问题 的 总 体 框架 ;也 可 能 指 的 是 
对 所 要 融合 的 对 象 (数据 和 知识 ) 进行 处 理 的 操作 过 
程 , 包 括 操 作 步 又、 规则 和 技巧 。 由 此 可 见 ,构建 知识 
融合 技术 体系 的 过 程 ,就 是 要 梳理 不 同 层次 的 知识 融 
合 概念 ,明确 它们 在 知识 融合 技术 篮 中 的 地 位 及 相互 
关系 ,反映 它们 在 解决 知识 融合 问题 过 程 中 相互 配合 、 
相互 补充 的 特性 。 

借鉴 前 人 对 技术 这 一 概念 的 理解 ,结合 本 文 构建 
知识 融合 技术 体系 需要 ,本 文 将 知识 融合 技术 归纳 为 
三 个 层次 :计算 层次 .功能 层次 以 及 任务 层次 。 计 算 层 
次 技术 是 最 基础 的 操作 技术 ,它们 面向 具体 的 数据 , 涵 
盖 了 知识 融合 过 程 处 理 数据 的 公式 、 变 量 、 模 型 指标 、 
算法 等 等 ,体现 的 是 “技术 是 手段 ,技能 和 方法 ”这 一 
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含义 。 功 能 层 强调 技术 在 知识 融合 过 程 中 发 挥 的 作 
用 , 它 是 指 为 完成 知识 融合 任务 所 要 解决 的 单元 问题 ， 
任何 一 项 知识 融合 任务 都 可 以 分 解 成 需要 具体 解决 的 
问题 ,这 些 问题 的 组 合 构成 了 知识 融合 的 任务 。 功 能 
层 的 技术 起 着 承上启下 的 作用 ,一 方面 , 它 接收 来 自 计 
算 层 对 数据 处 理 的 结果 (也 即 综合 了 计算 层 的 多 种 技 
AO ; 另 一 方面 ,功能 层 内 的 不 同 技术 的 组 合 ,对 计算 层 
数据 处 理 的 结果 进行 了 融合 ,解决 了 具体 知识 融合 功 
能 ,因此 ,功能 层次 的 技术 大 致 体现 的 是 “技术 是 关于 
方法 的 知识 ”或 是 “人 类 活动 (过 程 ) 或 人 类 行为 "这 样 
的 含义 。 任 务 层 的 技术 主要 反映 了 知识 融合 主体 在 完 
成 知识 融合 任务 中 的 主体 性 ,是 功能 层 技术 的 组 合 或 
释 加 , 它 体现 的 是 技术 是 “方法 .手段 .工具 和 知识 的 蘑 
种 给 合 或 总 和 ”。 这 样 构建 起 来 的 知识 融合 技术 体系 ， 
BERT ELE B tb A PURI Ee CR M T E HERE, dn D 

出 知识 融合 技术 在 解决 知识 融合 任务 时 的 主观 能 


的 多 方面 特征 ,避免 仅仅 从 单一 的 (标准 ) 来 区 分 和 类 
聚 技术 ,防止 发 生 遗 漏 造 成 列举 不 全 ,本文 使 用 多 维 分 
类 方法 构建 大 数据 环境 下 的 知识 融合 体系 。 多 维 分 类 
是 从 多 角度 属性 对 事物 或 对 象 进行 分 类 ,用 多 种 特征 
或 组 面 的 系列 来 细 分 类 目 , 它 可 以 在 对 事物 或 对 象 作 
相应 属性 解析 的 基础 上 ,采用 若干 个 可 并 列 的 属性 维 
概念 来 对 事物 或 对 象 进行 多 重 立 类 和 类 别 划 分 ,并 可 
在 计算 机 技术 支持 下 构建 多 类 别 组 配 的 网 状 结构 ,从 
而 达到 多 角度 地 认识 事物 或 对 象 的 目的 ,并 且 可 以 随 
着 事物 或 对 象 的 增 减 而 调整 属性 维度 (分 面 ) ,不 会 影 
响 原 有 的 体系 结构 。 在 每 一 种 技术 层次 中 ,针对 该 层 
次 的 技术 特征 可 以 设 定 不 同 的 维度 (分 类 标准 ) 表 , 维 
度 表 下 还 可 依据 相关 性 划分 为 多 个 层级 ,层级 是 对 维 
度 的 进一步 细 化 ,多 维度 多 层级 的 划分 才能 深入 分 析 
与 表达 知识 融合 技术 的 具体 内 容 与 特征 。 不 同 维度 及 
不 同 层级 的 方法 都 是 可 以 多 重出 现 的 ,这 种 多 维 分 类 
体系 可 以 对 知识 融合 方法 相关 内 容 属性 及 外 部 特征 进 


明确 总 体 解决 问题 的 思路 和 框架 ,技术 的 使 用 者 都 能 
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面向 数值 的 技术 面向 图 像 的 技术 
面向 文本 的 技术 面向 语音 的 技术 


行 多 角度 网 状 式 揭示 。 
2.2 知识 融合 技术 体系 的 整体 框架 

根据 以 上 构建 思路 ,本 文 从 知识 融合 的 任务 层 D 
能 层 和 计算 层 3 个 层面 构建 大 数据 环境 下 的 知识 融合 
技术 体系 ,如 图 1 所 示 : 


1 大 数据 时 代 知 识 融合 技术 体系 框架 


找到 与 完成 任务 相关 联 的 公式 ,变量 ,模型 .指标 \ 算 
涛 > 从 而 完成 知识 融合 任务 。 
为 了 充分 扬 示 知 识 融 合 技术 体系 中 不 同 层次 技术 
> EXP —— 
P anu 
c 
G 

向 

下 

计 

算 
2.2.1 计算 层 技术 


计算 层 是 知识 融合 技术 体系 中 最 为 具体 的 底层 ， 
它 主 要 提供 各 种 技术 实现 层次 的 内 容 , 例 如 算法 流程 、 
实施 模型 实现 公式 等 ,这 个 层次 中 的 每 一 种 具体 的 技 
术 , 通 常 只 是 实现 或 者 是 完成 知识 融合 过 程 中 的 某 一 


个 环节 的 一 部 分 工作 ,因此 ,计算 层 知 识 融 合 技术 是 实 
现 知识 融合 的 技术 基础 ,无 论 是 多 么 复杂 的 知识 融合 
任务 的 完成 以 及 知识 融合 功能 的 实现 ,最 终 都 要 落实 
到 这 些 可 实现 的 算法 流程 .实施 模型 和 实现 公式 上 , 任 
何 复 杂 的 知识 融合 功能 和 复杂 知识 融合 任务 的 达成 ， 
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都 需要 一 种 或 多 种 (主要 是 多 种 ) 计 算 层 知识 融合 技 
术 的 有 机 组 合 和 相互 配合 。 计 算 层 知识 融合 技术 还 可 
以 利用 不 同 的 标准 做 进一步 的 细 分 。 
2.2.2 功能 层 技术 

功能 层 是 指 在 知识 融合 实践 过 程 中 ,为 了 完成 知 
识 融 合 任务 ,用 于 知识 融合 过 程 中 各 个 功能 环节 中 的 
各 种 技术 。 计 算 层 中 具体 技术 的 组 合奏 加 实现 了 知识 
融合 的 具体 功能 。 关 于 知识 融合 的 功能 始终 都 是 知识 
融合 领域 研究 中 的 重要 内 容 , 无 论 是 对 知识 融合 概念 
还 是 知识 融合 系统 的 研究 ,都 离 不 开 对 知识 融合 功能 
的 认识 。 知 识 融 合 可 以 被 视 为 一 个 以 知识 为 操作 对 象 
的 复杂 系统 ,而 系统 所 具有 的 功能 是 指 其 在 不 同 的 方 
而 所 能 够 提供 的 功用 ,功效 或 用 途 ,所 以 可 以 通过 功能 
分 解 的 方式 来 描述 该 系统 。 徐 敏 认 为 ,人 类 处 理 知识 
无 左 就 是 解决 知识 形式 的 抽象 和 转换 、 知 识 的 化 繁 为 
简 5 发 现 知识 内 容 的 相同 与 差异 以 及 找 出 知识 中 的 联 
系 加 关系 等 问题 , 据 此 将 知识 融合 的 功能 概括 为 知识 
转 般 .知识 细 分 .知识 比较 和 知识 依存 "1, 本文 沿 用 这 
种 知识 融合 功能 的 分 类 并 对 完成 各 个 功能 所 需要 的 各 
种 其 体 实现 技术 进行 了 论述 和 总 结 ,明确 了 功能 层 技 
术 司 计算 层 技术 的 对 应 关系 。 
208 任务 层 技术 
“任务 层 的 目标 是 从 解决 具体 任务 的 角度 去 审视 知 
识 琶 合 技术 ,这 里 所 说 的 任务 是 指 知识 融合 为 解决 具 
侧重 题 而 进行 的 各 种 有 目的 的 活动 。 任 务 层 中 的 技术 


说 , 抛 开具 体 学 科 或 领域 中 的 知识 内 容 , 在 解决 学 科 或 
领域 问题 时 所 开展 的 活动 是 类 似 的 ,所 要 用 到 的 技术 
也 是 基本 共通 的 ,如 果 说 有 特色 的 话 , 那 就 是 要 根据 本 
学 科 或 领域 中 的 知识 内 容 对 技术 做 适应 性 改造 。 本 文 
中 ,结合 前 人 的 研究 ,将 知识 融合 的 任务 粗 粒 度 地 
划分 为 感知 .解释 .决策 和 预测 。 由 于 知识 融合 中 每 一 
项 任务 所 要 解决 的 问题 不 同 , 所 需要 的 核心 技术 或 主 
要 技术 也 会 有 所 不 同 。 

在 上 述 知识 融合 技术 体系 中 ,计算 层 、 功 能 层 和 任 
务 层 3 个 层次 中 的 技术 均 不 是 独立 存在 的 ,三 者 形成 
了 一 种 递 进 关系 ,是 相互 联系 、 相 互 影响 、 环 环 相 扣 、 缺 
一 不 可 的 。 在 实际 应 用 中 ,可 以 从 最 顶层 出 发 ,从 任务 
层 选 择 抽 象 的 任务 ,进而 具象 化 到 中 间 层 的 功能 选择 ， 
最 后 向 下 选择 计算 层 的 具体 算法 ,从 而 为 实际 的 知识 
融合 场景 进行 技术 支撑 。 反 之 ,也 可 以 从 计算 层 中 的 
具体 技术 人手, 逐 层 向 上 抽象 ,了 解 具 体 技术 可 以 参与 
实现 的 功能 以 及 参与 实现 的 任务 。 

下 文中 ,对 知识 融合 技术 体系 中 的 计算 层 技术 D 
能 层 技 术 和 任务 层 技术 中 的 内 容 加 以 详细 说 明 。 

3 计算 层 知识 融合 技术 

在 计算 层 技术 中 ,强调 技术 的 可 操作 性 ,具体 地 
说 ,这 一 层次 中 技术 这 一 术语 是 指 可 以 具体 实现 的 算 
法 ,公式 .模型 或 指标 。 这 些 算法 公式、 模型 或 指标 的 
处 理 对 象 是 各 种 类 型 的 具体 数据 ,对 不 同 数据 的 处 理 


是 踪 能 层 和 算法 层 的 有 机 组 合 ,多 个 功能 共同 组 合 完 
REMES ,是 技术 体系 的 最 高 层 。 随 着 知识 融合 研 
究 于 象 的 不 断 扩展 ,知识 融合 产生 了 多 个 与 学 科 或 领 
域 高 度 相关 的 应 用 分 支 ,不 同学 科 或 领域 的 知识 融合 
的 具体 任务 也 不 同 。 由 于 各 个 具体 的 学 科 或 领域 有 自 
身 的 特点 ,不 可 能 一 一 列举 它们 所 有 的 知识 融合 任务 ， 
但 是 ,这 些 学 科 或 领域 的 知识 融合 是 有 共性 的 ,也 就 是 


需 采 用 不 同 的 技术 来 满足 不 同 的 数据 特征 ,因此 ,将 处 
理 对 象 的 类 型 作为 计算 层 知 识 融 合 技术 的 分 类 标准 ， 
是 最 适合 的 计算 层 技术 划分 方式 。 由 此 ,将 计算 层 知 
识 融合 技术 分 为 面向 数值 型 数据 的 技术 面向 文本 型 
数据 的 技术 、 面 向 图 像 型 数据 的 技术 与 面向 语音 型 数 
据 的 技术 等 ,如 图 2 所 示 : 


计算 层 知识 融合 技术 


2 计算 层 知 识 融 合 技术 体系 
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3.1 面向 数值 型 数据 的 知识 融合 技术 

知识 融合 的 早期 处 理 对 象 就 是 数值 型 数据 ,最 早 
的 数据 融合 就 是 面向 诸如 传感器 数据 之 类 的 数值 型 数 
据 的 融合 ,许多 面向 其 他 数据 类 型 的 知识 融合 最 终 也 
需 将 数据 转化 为 数值 型 数据 后 再 进一步 做 融合 和 分 
析 。 因 此 ,数值 型 数据 是 知识 融合 过 程 中 不 可 或 缺 的 
重要 数据 类 型 。 面 向 数值 型 数据 的 知识 融合 技术 是 从 
大 量 的 、 异 构 的 .不 完全 的 、 有 噪声 的 ,模糊 的 、 随 机 的 
数值 型 数据 集中 识别 出 有 效 的 ,新颖 的 潜在 有 用 的 数 
据 ,进行 一 系列 操作 以 达到 融合 的 目的 。 一 般 而 言 , 面 
向 数值 型 数据 的 知识 融合 技术 可 以 大 致 可 以 分 为 两 
类 ,一 类 是 统计 分 析 的 技术 ,一 类 是 挖 据 预测 的 技术 。 

统计 分 析 技术 刻画 目标 数据 中 数据 的 一 般 性 质 ， 
对 森 一 主体 或 现象 的 数据 或 信息 进行 整理 .计算 .构建 
指标 体系 ,对 研究 目标 进行 整体 的 概括 理解 , 找 出 规 


律 避 统计 分 析 技术 是 知识 融合 的 一 项 基础 技术 , 绝 大 
部 次 知识 融合 功能 的 实现 都 离 不 开 统计 。 知 识 融 合 中 
这 者 的 统计 分 析 技术 有 描述 性 统计 、 假 设 检验 、. 相 关 分 
板 < 面 归 分 析 和 时 间 序 列 分 析 等 ,如 贝 叶 斯 方法 
(Büyes) “”\ 卡 尔 曼 滤波 算法 ” ,正如 G. Feng 等 
提 到 的 那样 ,综合 贝 叶 斯 网 络 是 实现 知识 融合 非常 有 
EDNER. 
SAAE DORMA EAE SES P EEG .揭示 或 
归 绩 出 有 价值 的 潜在 内 容 ,构建 及 验证 事物 关系 .类 别 
及 和 了 性 ,并 找 出 隐 含 在 数据 中 的 规律 性 。 知 识 融 合 
中 信用 的 技术 有 联机 分 析 分 类 、 聚 类 和 关联 规则 等 ， 
MORZ MAKER 、 基 于 扩展 概念 格 的 多 数据 源 
分 当 知 识 融 合 "!、 基 于 监督 学 习 的 多 源 知识 融合 
TE, 
3.2 面向 文本 型 数据 的 知识 融合 技术 

面向 文本 型 数据 的 知识 融合 是 目前 各 领域 中 最 党 
见 的 知识 融合 类 型 。 文 本 型 数据 多 为 非 结构 化 的 数 
据 ,在 文本 型 数据 的 知识 融合 中 ,通常 会 以 篇 章 段落、 
短语 甚至 文章 中 的 实体 等 为 单位 进行 知识 的 抽取 、 控 
据 和 推理 。 例 如 ,在 热点 识别 的 研究 中 ,关键 词 的 共 词 
分 析 就 是 最 经 典 的 方法 之 一 ,该 方法 通过 建立 共 词 矩 
阵 和 设置 一 定 的 阔 值 ,能 够 将 科技 报告 .专利 文献 和 学 
术 论文 等 多 种 来 源 的 文档 进行 融合 ,发 现 文档 集中 最 
为 高 频 出 现 的 一 系列 关键 词语 ,再 将 它们 进行 归纳 整 
合 , 从 而 发 现 科 学 技术 研究 的 热点 或 前 沿 。 

面向 文本 型 数据 的 知识 融合 技术 主要 用 来 对 大 规 
模 文本 库 进 行 挖 气 分 析 , 完 成 文本 主题 识别 .知识 体系 


型 数据 的 知识 融合 技术 主要 包括 自动 分 词 . 文 本 特征 
抽取 .词性 标注 、 命 名 实体 识别 .关系 抽取 事件 抽取 、 
主题 建 模 与 文本 表示 .文本 挖掘 与 模式 发 现 等 ,如 利用 
关联 规则 抽取 ”文本 分 类 '”、 基 于 语义 关系 和 规则 
来 融合 分 布 式 知识 对 象 的 知识 融合 算法 等 。 
3.3 面向 图 像 型 数据 的 知识 融合 技术 

计算 层 中 面向 图 像 型 数据 的 知识 融合 技术 涉及 了 
图 像 处 理 技术 的 多 个 部 分 ,包括 图 像 增强 和 复原 、 图 像 
分 割 .图 像 识别 .图 像 描述 .图 像 压 缩 和 解压 等 。 图 像 
数据 的 知识 融合 ,主要 有 两 种 应 用 场景 ,一 种 应 用 场景 
是 多 个 图 像 之 间 的 融合 ,通常 是 将 来 自 同一 对 象 不 同 
时 间 的 图 像 或 者 来 自 两 个 或 两 个 以 上 的 图 像 采 集 设备 
在 同一 时 间 (或 不 同时 间 ) 所 获得 的 同一 对 象 的 图 像 
进行 综合 ,消除 多 个 图 像 中 可 能 存在 的 矛盾 TR A 
一 致 等 现象 ,从 而 获得 关于 图 像 的 新 的 知识 ”” ; 另 
一 种 应 用 场景 是 与 文本 .语音 等 数据 进行 融合 ,从 而 加 
深 对 研究 对 象 的 理解 和 认识 ,例如 ,用 一 段 文字 对 图 像 
进行 说 明 ,在 对 文字 或 图 像 进行 理解 时 ,可 以 将 文字 中 
的 关键 词 与 图 像 中 的 相应 区 域 对 应 起 来 ,从 而 加 深 对 
图 像 或 文字 的 理解 如 。 为 了 达到 上 述 目的 , 主要 是 要 
解决 图 像 识别 .图像 语义 标注 .图像 语 义理 解 等 问题 ， 
这 3 类 技术 也 构成 了 面向 图 像 型 数据 知识 融合 需要 用 
到 的 主要 技术 ,具体 如 高 通 滤波 法 所 小波 变换 融合 
增强 法 2 等。 
3.4 面向 语音 型 数据 的 知识 融合 技术 

在 面向 音频 型 数据 的 知识 融合 中 ,语音 数据 通常 
会 与 图 形 图 像 数 据 相 结合 ,例如 ,在 足球 比赛 的 视频 
中 ,除了 视频 中 人 物 动作 和 画面 切换 的 识别 之 外 ,还 可 
以 针对 进 球 时 全 场 欢 呼声 进行 分 析 , 从 而 融合 视频 中 
声音 的 音量 和 音调 等 特征 对 进 球 片段 进行 知识 提取 。 
这 一 部 分 的 技术 需要 使 用 语音 特征 提取 ,语音 识别 等 
技术 。 近 年 来 ,语音 识别 和 转换 的 研究 已 经 成 绩 斐然 ， 
在 知识 融合 领域 许多 研究 都 是 将 语音 转换 为 文字 , 利 
用 文本 知识 融合 的 相关 技术 来 实现 对 语音 内 容 的 融 
合 。 因 此 ,计算 层面 向 语音 型 数据 的 知识 融合 技术 可 
分 为 语音 处 理 与 文本 内 容 分 析 两 个 层次 。 语 音 处 理 技 
术 部 分 除了 包括 常用 的 语音 特征 提取 .语音 识别 ™ 
等 技术 以 外 ,还 包括 了 相应 的 文本 处 理 技术 。 


4 ”功能 层 知识 融合 技术 


如 前 所 述 ,知识 融合 的 本 质 是 满足 人 类 对 知识 处 
理 的 功能 需求 或 模拟 人 类 知识 处 理 的 功能 ,具体 地 说 


构建 \ 知 识 异 同 的 比较 、 知 识 之 间 的 关联 等 。 面 向 文本 


就 是 通过 计算 实现 知识 形式 的 抽象 和 转换 发 现 知识 
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内 容 的 相同 与 差异 .解决 知识 化 繁 为 简 的 问题 以 及 找 
出 知识 中 的 联系 与 关系 。 因 此 可 以 将 功能 层 中 的 知识 
融合 技术 主要 分 为 面向 知识 转化 的 知识 融合 技术 、 面 


向 知识 细 分 的 知识 融合 技术 、 面 向 知识 比较 的 知识 融 
合 技术 和 面向 知识 依存 的 知识 融合 技术 4 个 维度 ,如 
图 3 Br: 


向 知识 细 分 的 
知识 融合 技术 


面向 知识 比较 的 
知识 融合 技术 


面向 知识 依存 的 
知识 融合 技术 


图 3 功能 层 知 识 融 合 技术 体系 


4.1 面向 知识 转化 的 知识 融合 技术 

> 知识 的 转化 是 指 在 从 原本 的 知识 到 融合 后 的 知识 
闫 楼 一 个 过 程 中 ,知识 必然 会 产生 形态 ,结构 和 要 素 等 
克 面 的 变化 ,将 不 同 的 知识 通过 抽象 和 映射 转化 到 拥 


Ha 尺度 的 空间 之 中 ,才能 完成 融合 ,这 是 知识 融合 
的 于 础 性 工作 。 面 向 知识 转化 的 知识 融合 技术 可 以 进 
-小 被 细 分 成 以 下 两 种 ， 

结构 抽象 


知识 结构 的 抽象 就 是 将 知识 的 不 同 要 素 之 间 的 
浸 参 关系 和 位 置 关系 表示 出 来 ,是 对 知识 的 物理 结构 
NER 吉 构 进行 抽象 和 规则 总 结 的 过 程 , 则 在 便于 将 
不 周 的 知识 放 在 同一 个 标准 下 进行 知识 融合 的 各 项 操 
作 外 知识 融合 中 常用 的 结构 抽象 技术 有 完全 句法 分 
村 绕 层 句法 分 析 以 及 依存 句法 分 析 等 ,具体 如 基于 支 
持 沿 量 机 的 句法 分 析 ”™ eR XU RE EDU 
4.1.2. 向 量 映射 

知识 的 向 量 映射 就 是 将 斑 含 知识 的 原始 数据 中 的 
特征 用 向 量 表示 的 方式 转换 为 向 量 空间 中 的 分 量 。 借 
助 知识 的 向 量 映 射 可 以 挖掘 出 知识 特征 及 要 素 所 蕴含 
的 更 深层 次 的 语义 信息 ,尤其 是 面向 结构 不 明晰 的 知 


提取 出 来 并 进行 重新 组 合 的 过 程 ,在 这 个 过 程 中 ,就 需 
要 将 原本 的 知识 分 解 或 粒 化 为 更 细致 的 单元 知识 。 
此 ,对 知识 的 细 分 主要 是 对 知识 进行 分 解 得 到 知识 要 
素 或 是 对 知识 进行 粒 化 得 到 知识 颗粒 。 
4.2.1 要 素 分 解 

知识 的 要 素 分 解 是 指 在 知识 的 物理 和 逻辑 层面 上 
以 属性 、 特 点 和 结构 等 为 入口 将 知识 分 解 成 为 一 个 个 
组 成 要 素 的 形式 ,以 便于 人 或 机 器 选择 相应 的 要 素 进 


行 操 作 。 知 识 要 素 分 解 主要 可 应 用 于 知识 融合 中 的 自 
然 语言 处 理 、 多 类 型 知识 的 特征 提取 、 知 识 图 谱 的 应 


用 知识 库 的 构建 与 补足 等 。 常 见 的 知识 要 素 分 解 一 
般 有 基于 词 .基于 短语 、 基 于 句子 和 基于 篇 章 知 识 要 素 
细 分 等 。 知 识 融 合 中 常用 的 要 素 分 解 技术 主要 有 数理 
统计 、 机 器 学 习 以 及 深度 学 习 等 ,具体 如 基于 过 滤 词 典 
自动 生成 结合 词汇 密集 度 影响 因子 的 术语 抽取 
方法 |。 
4.2.2 粒度 计算 

知识 的 粒度 计算 在 本 质 上 是 对 知识 中 单元 的 分 
类 , 即 通过 分 析 知 识 的 承载 体 中 的 数据 结构 来 提取 和 
发 现 隐藏 在 边界 之 中 的 知识 颗粒 。 粒 度 计算 在 知识 融 


识 时 效果 更 好 。 知 识 向 量 映射 对 知识 的 融合 效果 与 数 
据 的 规模 和 语义 的 丰富 性 成 正比 , 即 处 理 的 数据 量 越 
大 ,知识 涵义 越 多 ,最 终 融 合 得 到 的 结果 越 有 价值 。 知 
识 融合 中 常用 的 向 量 映射 技术 法 有 疝 量 空间 模型 . 词 
袋 模型 以 及 概率 语言 模型 等 ,具体 如 基于 支持 向 量 机 
的 多 特征 融合 来 进行 文本 识别 和 分 类 。 
4.2 面向 知识 细 分 的 知识 融合 技术 

因为 现实 世界 中 的 知识 往往 都 具有 整体 性 、 系 统 
性 和 多 面 性 等 特点 ,所 以 从 细 分 角度 来 看 知识 融合 的 
过 程 ,可 以 将 其 理解 为 把 不 同 来 源 知 识 中 特定 的 要 素 


合 中 可 用 于 处 理 不 确信 的 知识 和 多 面 性 的 知识 ,实现 
的 过 程 和 方法 简单 高 效 。 常 见 的 知识 颗粒 包括 基于 模 
糊 规 则 下 的 知识 颗粒 和 面向 多 层次 粒度 空间 下 的 知识 
颗粒 。 知 识 融 合 中 常用 的 粒度 计算 技术 主要 有 基于 粗 
糙 集 的 粒 计算 .基于 模糊 集 的 粒 计 算 .基于 商 空间 的 粒 
计算 等 ,具体 如 颗粒 度 大 小 的 分 解 与 合并 模型 ea 
4.3 面向 知识 比较 的 知识 融合 技术 

知识 比较 是 指 通过 一 定 的 手段 确定 知识 之 间 存 
在 着 的 相同 点 和 差异 点 。 在 知识 融合 中 ,知识 要 人 么 
具有 相同 的 来 源 ,要 么 是 不 同 来 源 的 同 范畴 知识 , 因 
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此 知识 间 一 定 存在 许多 相同 和 差异 的 方面 ,知识 比 
较 就 是 要 发 现 这 些 异同 ,包括 知识 的 相似 性 和 知识 
的 差异 性 。 
4.3.1 相似 对 比 

知识 的 相似 对 比 是 指 从 知识 特征 的 相似 程度 上 来 
发 现 知识 中 的 隐 含 规律 以 及 知识 内 外 部 单元 间 的 接近 
程度 ,以 达到 区 分 知识 和 发 现 知识 的 目的 。 知 识 的 相 
似 对 比 更 多 地 强调 的 是 语义 的 相似 ,而 不 仅仅 是 外 在 
属性 上 的 浅 层 相似 ,这 是 对 知识 进行 深度 挖掘 和 融合 
的 必 备 条 件 。 常 见 的 知识 相似 度 计算 一 般 包括 基于 距 
离 的 相似 对 比 、 基 于 概率 的 相似 对 比 和 基于 结构 的 相 
似 对 比 等 。 常 用 的 技术 方法 主要 有 距离 计算 .路径 计 
算 以 及 语义 分 析 等 ,具体 如 特征 词 分 布 .LDA 主题 分 
布 <| 文 结构 网 络 的 相似 计算 。 
4,822 差异 识别 
感知 识 的 差异 识别 是 指 在 对 复杂 的 知识 进行 降 维 之 
亿 订 过 对 知识 主要 特征 的 比较 ,识别 出 知识 间 最 为 显 
著 的 差异 点 ,以 这 些 差 异 点 作为 知识 区 分 或 异常 发 现 
的 标准 。 知 识 的 差异 识别 尤其 适用 于 有 缺失 值 的 知 
误 或 具有 突变 特征 的 知识 ,此 外 还 适合 结构 性 不 强 
的 知识 或 目的 不 太 明 确 的 知识 融合 任务 。 常 见 的 知 
襄 驳 异 识别 包括 离 群 知识 的 检测 和 突变 知识 的 检测 
等 .> 知识 融合 中 常用 的 技术 方法 主要 有 主 成 分 分 析 
和 例子 分 析 等 ,具体 如 基于 异常 检测 技术 的 技术 机 
PRII, 
4.82 面向 知识 依存 的 知识 融合 技术 
"三 依存 是 指 两 个 以 上 的 事物 同时 存在 并 且 相互 依附 
和 由 互 依赖 。 由 于 世界 上 的 事物 是 普遍 相关 的 ,在 知 
识 融合 的 过 程 中 ,不 同 来 源 的 知识 通常 会 或 多 或 少 存 
在 一 定 的 关联 ,利用 这 些 关联 可 以 发 现 知识 之 间 的 关 
系 ,从 而 实现 知识 融合 。 


面向 感知 的 知 
识 融 合 技术 


4.4.1 关联 分 析 

知识 的 关联 分 析 是 指 找寻 存在 于 大 量 知识 集合 中 
的 关联 特性 或 相关 特性 ,最 终 形成 对 知识 中 某 些 特质 
或 属性 同时 出 现 的 规律 和 规则 的 描述 。 在 对 知识 进行 
处 理 之 前 ,往往 不 知道 其 中 可 能 列 含 的 规律 和 规则 ， 
此 ,知识 关联 分 析 更 多 的 是 一 种 数据 驱动 下 的 知识 融 
合 , 能 够 发 现 有 高 价值 的 知识 或 是 易 被 忽略 的 知识 。 
常见 的 知识 关联 分 析 一 般 有 基于 规则 的 关联 分 析 、 基 
于 概率 的 关联 分 析 和 基于 路 径 的 关联 分 析 等 。 知 识 融 
合 中 常用 的 关联 分 析 技 术 主 要 有 关联 规则 挖掘 、 图 模 
型 以 及 概率 统计 模型 等 ,具体 如 利用 关联 规则 模型 揭 
示 共 现 关系 背 后 的 深层 关联 ,帮助 探测 技术 发 展 中 湾 
藏 的 规律 。 
4.4.2 关系 发 现 

知识 的 关系 发 现 是 指 以 知识 内 部 或 外 部 的 强 相关 
关系 为 着 手 点 挖掘 出 知识 中 存在 的 大 量 显 性 或 隐 性 关 
系 。 知 识 关系 发 现 的 特点 在 于 ,在 对 知识 进行 处 理 之 
前 已 经 有 了 大 概 的 期 望 , 提 前 预 估 了 其 中 可 能 的 关系 
或 关系 条 件 , 因 此 ,知识 关系 发 现 更 多 地 属于 业务 驱动 
下 的 知识 融合 。 常 见 的 知识 关系 发 现 包 括 基于 触发 条 
件 的 关系 发 现 和 基于 数理 统计 的 关系 发 现 。 知 识 融 合 
中 常用 的 技术 主要 有 逻辑 语言 .序列 标注 以 及 神经 网 
络 等 ,如 非 分 类 关系 的 抽取 。 


5 任务 层 知 识 融合 技术 


任务 层 的 知识 融合 技术 在 本 质 上 是 综合 性 的 方 
法 , 它 主要 是 各 种 计算 层 技 术 的 组 合 , 通 过 实现 知识 融 
合 的 各 类 功能 ,完成 具体 的 知识 融合 任务 。 任 务 层 的 
知识 融合 技术 主要 包括 面向 感知 的 知识 融合 技术 td 
向 解释 的 知识 融合 技术 ` 面 向 决策 的 知识 融合 技术 和 
面向 预测 的 知识 融合 技术 ,如 图 4 所 示 : 


L 


任务 层 知识 融合 技术 


ED 


B 


4 任务 层 知识 融合 技术 体系 
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5.1 面向 感知 的 知识 融合 技术 
面向 感知 的 知识 融合 技术 ,主要 目的 是 解决 数据 
和 知识 的 发 现 .采集 ,获取 ,主要 技术 有 信息 感知 .智能 
搜索 和 知识 发 现 。 
5.1.1 信息 感知 

信息 感知 通过 综合 获取 同一 对 象 的 不 同时 空 的 数 
据 或 信息 并 加 以 融合 ,以 多 种 信息 网 络 的 有 效 互联 为 
基础 ,实现 数据 或 信息 的 一 体 化 和 立体 化 采集 与 发 现 ， 
从 而 得 到 相关 的 结论 。 数 据 和 信息 是 知识 融合 所 要 处 
理 的 最 基本 对 象 ,信息 感知 一 直 是 知识 融合 领域 的 重 
要 研究 课题 。 知 识 融 合 中 的 信息 感知 技术 通常 基于 线 
性 代数 .概率 论 .随机 过 程 和 统计 计算 、 信 息 抽取 .语义 
建 模 和 自动 聚 类 等 ,例如 ,在 打击 犯罪 方面 ,已 经 可 以 
综合 使 用 上 述 技术 从 海量 的 Web 信息 源 中 感知 并 获 
取 守 价值 的 犯罪 线索 ”。 
智能 搜索 
智能 搜索 是 搜索 技术 与 知识 融合 技术 相 结合 的 产 
HAE TIERT .隐喻 识别 等 知识 融合 技术 在 采集 
阶 氏 就 实现 对 信息 内 容 的 深度 理解 与 信息 场景 的 感知 
与 识别 ,从 而 更 加 准确 地 过 滤 出 与 研究 问题 直接 相关 


| 


* 痪 价值 的 信息 或 知识 ,减少 所 采集 到 的 信息 中 的 “ 品 


避免 信息 “过载 ", 甚 至 根据 已 经 采集 到 的 信息 所 
涉 太 的 场景 ,对 信息 采集 的 方向 .范围 等 进行 有 意识 的 
“PAE” ,主动 发 现 表面 上 并 不 相关 或 者 在 开始 采集 规 
uM eoram. 
5pm 知识 发 现 
“三 知识 发 现 是 从 各 种 信息 中 ,根据 不 同 的 需求 获得 
知 钼 的 过 程 。 知 识 发 现 的 目的 是 向 使 用 者 屏蔽 原始 数 
据 的 繁琐 细节 ,从 原始 数据 中 提炼 出 有 效 的 、 新 颖 的 、 
潜在 有 用 的 知识 。 知 识 发 现 可 以 看 作 是 信息 感知 
和 智能 搜索 的 高 级 形式 ,知识 发 现 所 获得 的 知识 是 一 
种 由 数据 .信息 或 知识 到 知识 的 高 质量 集成 的 结果 。 
知识 发 现 涉及 3 类 技术 :第 一 类 是 知识 库 建设 技 
术 趾 ,第 二 类 是 知识 的 表示 及 其 推理 技术 ,第 三 
类 是 知识 的 应 用 技术 "5 。 
5.2. 面向 解释 的 知识 融合 技术 

大 数据 环境 下 ,来 自 多 种 领域 和 数据 源 的 知识 涉 
及 不 同学 科 , 可 能 以 不 同 的 形式 表达 出 来 ,因此 缺乏 一 
定 的 大 众 理解 性 ,在 知识 融合 的 过 程 中 ,将 不 同学 科 知 
识 通过 相互 解释 从 而 达成 理解 是 非常 必要 的 。 
5.2.1 面向 数值 解释 的 知识 融合 技术 

数据 融合 是 知识 融合 的 重要 组 成 部 分 ,也 是 知识 
融合 的 一 个 基本 阶段 ,数据 融合 大 致 可 以 分 成 两 类 ,一 


类 是 非 语义 融合 , 另 一 类 基于 语义 的 融合 。 其 中 , 非 语 
义 融 合 主要 采用 卡尔 曼 滤波 器 . 贝 叶 斯 网 络 和 基于 规 
则 等 技术 ”实现 对 数值 形式 的 解释 ,而 在 基于 语义 的 
融合 中 , 则 多 使 用 元 数据 技术 、 本 体 技术 ,将 原始 数据 
按照 观察 和 测量 的 标准 转换 成 相应 的 带 有 语义 的 描述 
格式 ,如 XML, RDF 等 ,以 便 帮 助 对 数据 含义 的 
gu. 
5.2.2. 面向 文本 解释 的 知识 融合 技术 

这 类 技术 是 对 大 量 分 散 的 文本 内 容 中 的 知识 及 其 
关系 进行 提取 ,根据 已 有 的 先 验 知识 按 一 定 的 叙事 逻 
辑 从 语义 层面 进行 融合 ,从 而 帮助 用 户 理解 知识 之 间 
存在 的 因果 关系 。 知 识 融 合 中 文本 语义 解释 主要 涉及 
基于 规则 的 、 基 于 统计 的 以 及 基于 机 器 学 习 的 自然 语 
言 处 理 、 信 息 提取 、 因 果 推 断 等 技术 ,典型 的 应 用 有 跨 
文档 实体 关系 的 抽取 与 合并 ““”! ,语句 融合 排序 、 
文档 主题 聚 类 与 摘要 ”等 。 
5.2.3 面向 图 像 解释 的 知识 融合 技术 

这 类 技术 的 目的 是 揭示 出 图 像 内 容 背后 隐 含 的 深 
层次 语义 ,从 而 帮助 用 户 对 图 像 做 出 正确 的 理解 。 一 
般 情 况 下 ,面向 图 像 解 释 的 知识 融合 在 本 质 上 是 对 图 
像 进行 语义 融合 ,也 就 是 将 同一 场景 中 具有 互补 信息 和 
元 余 特性 的 多 个 图 像 整 合 处 理 成 为 一 个 完整 的 ,信息 更 
丰富 的 .意义 更 为 明确 的 图 像 , 这 种 图 像 语 义 融 合 是 一 
项 综合 性 的 工作 ,大 致 可 以 分 成 3 个 方面 的 内 容 :图 像 
语义 分 割 .图像 语义 标注 以 及 基于 语义 的 图 像 融 合 呈 。 
5.3 面向 决策 的 知识 融合 技术 

面向 决策 的 知识 融合 技术 的 目的 是 将 来 自 多 个 来 
源 的 信息 和 知识 整合 成 一 些 新 的 共同 知识 ,这 些 知识 
可 用 于 决策 和 问题 解决 ,或 可 对 所 考虑 的 情况 提供 更 
好 的 洞察 和 理解 。 通 常 而 言 ,可 以 从 不 同 的 角度 对 决 
策 进 行 分 类 , 这 里 根据 知识 融合 技术 在 决策 领域 中 的 
实际 应 用 ,重点 讨论 应 急 决策 .长 期 决策 以 及 智能 决策 
任务 中 的 知识 融合 技术 。 
5.3.1. 面向 应 急 决策 的 知识 融合 技术 

应 急 决 策 就 是 决策 者 在 有 限时 间 内 用 已 有 知识 对 
紧急 事件 的 处 置 策 略 进行 判断 ,并 选择 出 满意 的 处 理 
方案 。 在 此 类 知识 融合 任务 中 ,决策 者 利用 已 有 的 应 
对 和 处 置 突 发 事件 知识 ,结合 当前 的 情景 信息 ,对 需要 
决策 的 问题 进行 认识 和 理解 ,在 此 基础 上 形成 决策 。 
面向 应 急 决策 的 知识 融合 通常 会 用 到 上 下 文 识别 、 
模糊 集合 论 ” 、 情 景 分 析 '“ 等 技术 。 
5.3.2 面向 长 期 决策 的 知识 融合 技术 

长 期 决策 是 针对 未 来 数 十 年 或 更 长 时 间 的 潜在 事 
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件 进行 的 决策  。 此 类 知识 融合 任务 要 对 众多 决策 
者 的 可 能 的 评价 标准 进行 提取 综合 ,从 而 选 出 可 以 用 
于 确定 决策 解决 方案 的 评价 标准 。 目 前 这 方面 的 典型 
做 法 是 利用 情感 分 析 、 模 糊 集 合 和 炳 值 法 等 方法 进行 
D 173/30]: vA 
5.3.3. 面向 智能 决策 的 知识 融合 技术 

智能 决策 支持 系统 是 人 工 智 能 和 决策 支持 系统 相 
结合 的 产物 ,是 一 种 基于 计算 机 的 交互 式 辅助 决策 者 
进行 决策 的 系统 ,其 追求 的 目标 是 决策 的 自动 化 ,减少 
决策 对 人 的 依赖 ,避免 决策 过 程 当中 人 的 主观 因素 的 
干扰 ,统计 分 析 技 术 、 知 识 抽取 、 知 识 表示 、 知 识 比 较 、 
关系 发 现 等 技术 在 这 个 过 程 中 发 挥 着 重要 的 作用 ,并 
且 有 成 功 的 应 用 rm 。 
525 面向 预测 的 知识 融合 技术 
大 数据 环境 下 ,知识 融合 开始 直接 参与 到 问题 解 
复杂 决策 之 中 。 在 理论 上 ,相关 学 者 已 经 证 明了 
基 争 多 源 信息 和 知识 融合 以 及 群体 智慧 的 、 由 信息 驱 
动 丽 预测 ,是 一 种 非常 有 效 的 预测 方式 "”。 因 此 ， 
近年 来 ,学 界 和 业界 都 十 分 重视 采用 知识 融合 的 思想 
解决 预测 问题 。 
面向 技术 预测 的 知识 融合 技术 
中 面向 技术 预测 的 知识 融合 技术 是 指 利用 知识 融合 
瑟 注 现 对 技术 发 展 的 预测 。 例 如 ,下 ，Heyeol 提出 基于 
多 泪 数 据 融合 的 新 兴 科 技 情报 分 析 框架 '@1 ,该 框架 综 
PUR AERE HB BUZI VII Web 学 术 数据 、Wikipedia 
数据 等 ,通过 潜在 语义 分 析 、 知 识 提取 ,实现 了 对 新 兴 
技术 的 分 析 和 预测 。 
5- 人 字面 向 人 机 混合 预测 的 知识 融合 技术 

面向 人 机 混合 预测 的 知识 融合 技术 是 指 在 预测 过 
程 中 使 机 器 概率 化 的 智能 与 预测 ,分 析 人 员 有 机 地 参 
与 到 智能 交互 的 知识 融合 过 程 中 ,与 机 器 行为 互 为 补 
充 ,共同 协作 完成 复杂 的 预测 工作 。 这 方面 ,DARPA 


6 结语 


大 数据 时 代 信 息 技术 的 发 展 及 其 应 用 , 极 大 丰富 
了 知识 融合 的 技术 方法 与 体系 ,本 文 从 大 数据 时 代 知 
识 融 合 的 多 源 、 异 构 的 数据 特点 出 发 ,结合 大 数据 技术 
的 生态 ,分 析 了 大 数据 环境 下 知识 融合 技术 的 内 涵 ,对 
知识 融合 的 特点 及 其 实现 的 关键 技术 进行 了 深入 分 
析 , 以 知识 融合 实现 过 程 中 的 功能 为 中 介 ,综合 考虑 各 
种 技术 的 自身 特性 、 适 用 的 知识 对 象 、. 应 用 的 抽象 层 
次 ,建立 了 具有 计算 层 ,功能 层 和 任务 层 3 个 层次 的 技 
术 体 系 架 构 ,并 对 每 一 层次 的 知识 融合 技术 进行 概括 
和 总 结 。 其 中 ,计算 层 的 知识 融合 技术 是 最 为 具体 的 
技术 ,反映 了 各 种 技术 的 可 计算 性 .可 度量 性 和 可 检验 
性 ,表现 为 算法 流程 实施 模型 .实现 公式 等 。 功 能 层 
的 知识 融合 技术 着 眼 于 它们 在 知识 融合 过 程 中 发 挥 的 
作用 ,任何 一 项 知识 融合 工作 ,都 需要 借助 具体 的 技 
术 , 实 现 一 定 的 功能 ,这 种 功能 实际 上 是 各 种 以 数据 
(知识 ) 为 处 理 对 象 的 具体 技术 所 能 发 挥 作用 的 形式 
化 的 描述 ,计算 层 的 技术 在 本 质 上 是 “底层 ”的 可 操作 
的 技术 ,严格 地 说 , 它 只 能 处 理 “ 数 据 ” ,不 能 处 理 知 
识 ,而 功能 层 的 技术 , 则 是 在 计算 层 技 术 数据 处 理 的 技 
RE ,将 "数据 ”处理 上 升 为 “知识 "处理 的 技术 ,为 解 
决 知 识 融 合 任务 黄 定 基础 。 

本 文 在 前 人 研究 的 基础 上 ,将 知识 融合 的 功能 总 
结 为 知识 转化 .知识 细 分 、 知 识 比较 和 知识 依存 ,并 进 
一 步 根据 它们 的 特质 将 所 涉及 的 主要 技术 领域 划分 为 
结构 抽象 与 向 量 映射 ,要素 分 解 与 粒度 计算 .相似 对 比 
与 差异 识别 .关联 分 析 与 关系 发 现 等 方面 ,论述 了 各 个 
方面 中 的 代表 性 技术 。 知 识 融 合 功能 的 划分 及 其 在 整 
个 知识 融合 技术 体系 中 的 引入 ,是 文本 知识 融合 技术 
体系 与 以 往 知识 融合 技术 体系 研究 的 显著 不 同 点 , 功 
能 层 在 整个 知识 融合 技术 体系 中 起 着 承上启下 的 作 


和 南 加 州 大 学 的 研究 人 员 都 做 过 有 益 的 尝试 ,取得 了 
很 好 的 效果 “| 。 
5.4.3 面向 众 包 预测 的 知识 融合 技术 
面向 众 包 预测 的 知识 融合 技术 是 指 在 预测 任务 中 
利用 群体 智慧 效应 获得 相对 最 优 的 预测 结果 。 其 本 质 
就 是 将 分 析 者 的 智慧 知识、 信息 通过 网 络 平台 进行 聚 
合 及 融合 并 通过 市 场 行为 形成 最 优化 的 预测 结果 ,这 
方面 的 典型 代表 是 P. E. Tetlock 等 “提出 的 聚合 群 
体 智 慧 进 行 预 测 的 技术 方法 体系 ,该 技术 方法 体系 强 
调 从 多 种 来 源 收 集 证 据 、 注 重 概率 思维 、 强 调 团队 合 
作 多 因素 分 析 以 及 持续 改进 等 技术 方法 。 


] ,解释 了 知识 融合 过 程 中 处 理 对 象 从 “数据 ”到 “ 知 
识 ” 的 转化 过 程 。 任 务 层 的 知识 融合 技术 ,反映 了 解决 
知识 融合 问题 的 逻辑 思维 过 程 ,表现 为 知识 融合 计算 
层 的 各 种 技术 和 /或 功能 层 的 各 种 技术 的 组 合 ,其 本 质 
上 是 为 了 实现 知识 融合 的 目标 ,解决 知识 融合 的 问题 ， 
具有 明显 的 针对 性 和 明确 的 目的 性 。 在 任务 层 中 ,本 
文 将 知识 融合 的 任务 明确 地 抽象 为 感知 .解释 .决策 和 
预测 ,这 也 是 本 文 的 一 个 特色 。 

本 文 构建 的 知识 融合 技术 体系 ,是 一 种 多 层 .多维 
立体 的 知识 融合 技术 ,弥补 了 以 往 知识 融合 技术 体系 
研究 中 多 就 技术 原理 这 一 特性 进行 分 类 , 较 少 考虑 技 
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术 应 用 场景 的 不 足 , 特 别 是 本 文 构建 的 三 层 知识 融合 
技术 体系 ,各 层次 相互 联系 、 相 互 影 响 、 环 环 相 扣 ,向 上 
可 以 抽象 ,可 以 与 知识 融合 的 具体 问题 和 具体 任务 相 
关联 ,向 下 可 以 具 化 ,可 以 指引 找到 进行 知识 抽取 、 采 
集 组织、 建 模 、 组 合 推理 、 集 成 的 可 操作 可 计算 的 技 
术 方 法 , 它 除 了 对 知识 融合 过 程 中 涉及 的 技术 具有 认 
识 论 意义 ,还 可 以 对 知识 融合 技术 的 选 型 提供 借鉴 , 指 
导 知 识 融 合 的 实践 工作 。 
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Research on the Knowledge Fusion Technology Taxonomy in Big Data Environment 
Chen Mo Li Guangjian 
Department of Information Management, Peking University, Beijing 100871 

Abstract: [ Purpose/Significance | This paper mainly studies the key technologies of multi-source knowledge 
fusion in the big data environment, and proposes a complete set of technology taxonomy based on the characteristics of 
multi-source knowledge objects in different fields to provide technical support and solutions for the realization of 
knowledge fusion. | Method/Process | The study utilized qualitative analysis method to analyze the existing related 
research , and then within the same hierarchical level on the related contents of induction and deduction, used litera- 
(ture analysis method, to solve the problem of combing knowledge fusion, sum up the knowledge integration of task 
e and implement various tasks involved in the work process and its specific technology, and form a knowledge fu- 
(Sion system. | Result/Conclusion | Considering all kinds of technology' s own characteristics, applicable knowledge 
Becis, the application of abstraction of knowledge, the paper establishes the calculating layer, function layer and 
"mission layer - three levels of technical architecture. These three layers contact each other, influence each other and 
Cuterlock each other. The upper layer can be abstracted and associated with specific problems (tasks) of knowledge 
ion. The lower layer can be embodied, that is, to find operational and computable technical methods to solve spe- 

ic problems of knowledge fusion. 


> Keywords; knowledge fusion technology system big data 
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